﻿ Cursuri 7-8 Elemente de prelucrarea limbajului natural Domeniul • Lingvisca computaţională (LC) – osatura teorecă – computaonal linguiscs • Prelucrarea limbajului natural – zona aplicavă – natural language processing – tehnologia limbajului natural, natural language technology – tehnologia limbajului uman, human language technology Tehnologia limbajului natural • Limbajul vorbit • Limbajul scris • Limbajul în corelaţie cu alte modalităţi de expresie (mulmodalitate) Tehnologiile limbajului scris • Tehnologii primare – Analiza imaginii documentelor – Recunoaşterea caracterelor de par – Recunoaşterea caracterelor de mână • Opcal Character Recognion (OCR) Tehnologiile limbajului scris • Analiza şi înţelegerea limbajului – prelucrări sub-sintacce • unităţile lexicale • graniţele de frază • granițele de propoziții • partea de vorbire şi marca morfologică • lema • numele de entăţi • grupurile (nominale, verbale, prepoziţionale etc ) şi atracţiile lexicale (colocaţii) Fraze Solicitat să comenteze un editorial recent al lui Dinu Patriciu, în care acesta preciza că nu crede în social-liberalism şi să aprecieze dacă, asel, a dat o lovitură de imagine USL, Antonescu a spus că nu şe dacă Patriciu s-a referit la USL | El a precizat că USL este o uniune social-liberală pentru că reuneşte un pard social-democrat cu un pard naţional liberal | Propoziții Solicitat să comenteze un editorial recent al lui Dinu Patriciu,| în care acesta preciza că nu crede în social-liberalism| şi să aprecieze | dacă, asel, a dat o lovitură de imagine USL,| Antonescu a spus că nu şe dacă Patriciu s-a referit la USL | Unități lexicale Solicitat să comenteze un editorial recent al lui Dinu Patriciu , în care acesta preciza că nu crede în social-liberalism şi să aprecieze dacă , asel , a dat o lovitură de imagine USL , Antonescu a spus că nu şe dacă Patriciu s - a referit la USL Entăți de p nume Solicitat să comenteze un editorial recent al lui Dinu Patriciu, în care acesta preciza că nu crede în social-liberalism şi să aprecieze dacă, asel, a dat o lovitură de imagine USL, Antonescu a spus că nu şe dacă Patriciu s-a referit la USL persoană persoană persoană organizație Lema și partea de vorbire Solicitat – solicita – vb să – să – conj comenteze – comenta – vb un – un – art nehot editorial – editorial – sb recent – recent – adj Grupuri nominale Solicitat să comenteze [un editorial recent al lui [Dinu Patriciu]], în [care] [acesta] preciza că nu crede în [social-liberalism] şi să aprecieze dacă, asel, a dat [o lovitură de [imagine]] [USL], [Antonescu] a spus că nu şe dacă [Patriciu] s-a referit la [USL] Adnotarea morfologică • English 0 1 He he subj:>2 @SUBJ PRON 2 did do v-ch:>4 @+FAUXV V 3 not not neg:>2 @ADVL NEG-PART 4 know know main:>0 @-FMAINV V 5 her she subj:>6 @OBJ PRON 6 name name obj:>4 @-FMAINV V • Romanian Nu şa cum o cheamă Tehnologiile limbajului scris • Analiza şi înţelegerea limbajului – prelucrări sintacce • formalisme gramacale • parsarea è structura sintaccă a frazei Adnotare la lemă, grup nominal şi sintaxă He did not know her name Ambiguităţi sintacce Maria priveşte calul cu ochelari S S VP NP VP NP NP NP PP PP NP NP priveşte Maria calul cu ochelari priveşte Maria calul cu ochelari Elementary NLP tools • Tokenizer: get the word boundaries – Input: raw text – Output: word – How: by regular expressions 16 Elementary NLP tools • POS-Tagger: Part-of-Speech tagging (morfo- syntacc disambiguaon) – Input: word – Output: word – How: by explong the frequencies of occurance of adjacent POSs => opmise globally the sequence of tags The saw made noise DET V N N N V 17 Elementary NLP tools • Lemmaser: get the base form of the words – Input: word – Output: word – How: by explong the frequencies of occurance of adjacent lemmas => global opmisaon The saw made noise the saw made noise see make 18 Elementary NLP tools • NP-Chunker: detect Noun Phrases – Input: sequence of elements – Output: – How: apply regular expressions 19 Elementary NLP tools • NER: recognise Name Enes and classify them – Input: raw text – Output: – How: based on regular expressions, large lists of enty names specialised per language (gazeteers) 20 Tehnologiile limbajului scris • Analiza şi înţelegerea limbajului – Prelucrări semance şi de discurs • dezambiguizare semancă è sensurile cuvintelor • determinarea rolurilor semance ale verbelor • structura retorică a discursului şi dialogului • rezoluţia anaforelor • rezumarea textelor Lanțuri coreferențiale Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room One of them was a girl whom he often passed in the corridors He did not know her name, but he knew that she worked in the Fiction Department 22 Lanțuri coreferențiale Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room One of them was a girl whom he often passed in the corridors He did not know her name, but he knew that she worked in the Fiction Department 23 Lanțuri coreferențiale Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room One of them was a girl whom he often passed in the corridors He did not know her name, but he knew that she worked in the Fiction Department 24 Lanțuri coreferențiale Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room One of them was a girl whom he often passed in the corridors He did not know her name, but he knew that she worked in the Fiction Department 25 Cuvintele îşi precizează sensul în context • Ion se prinse în horă cu o fată cu cosiţe lungi • Când fată iapa ta? • Mă mai dau o dată pe pâra roşie • I-am dat una peste mână • Maria a dat cartea înapoi • M-am scos… • Mi-am scos măseaua de minte Pre-processing TEXT Tokeniser SENT-SPLITTER TOK SENT POS-tagger + Lemmaser TOK(POS,LEM) 27 NP-chunking, NER TOK(POS,LEM) NP-chunker TOK + NP NER me NER org NER person TOK+NPTOK+NP +NE(PER) TOK+NP+TIME +NE(ORG) merge TOK+NP+NE 28 Coreference, syntacc parsing SENT TOK+NP+NE TOK(POS,LEM) RARE merge TOK + NP+NE +COREF TOK+SENT FDG-parser TOK+SENT +SYNT merge TOK+NP+NE+COREF +SENT+SYNT 29 Events and Situaons TEXT manual annotaon manual annotaon EVENT SITUATION SITUATION-ﬁnder simpliﬁcaon simpliﬁcaon TOK+NP+NE+COREF +SENT+SYNT EVENT +SITUATION EVENT-ﬁnder TOK+NP+NE+COREF +SENT+SYNT+EVENT 30 Kinship and Space TEXT manual annotaon manual annotaon KINSHIP SPACE TOK+NP+NE+COREFsimpliﬁcaon +SENT+SYNT simpliﬁcaon KINSHIP-ﬁnder SPACE-ﬁnder TOK+NP+NE+COREFTOK+NP+NE+COREF +SENT+SYNT+KINSHIP +SENT+SYNT+SPACE 31 Relații de rudenie: exemplu - Las că cu ne mă răfuiesc după, îi scăpă printre dinți omului ei Donca, nevasta călugărului zbanghiu Zuicu, care-I adusese la el acasă pe Ion și pe președinte Apoziție: Per-X, Rel (atrib) Per-Ygen, => marriage(X:person[sex:?], Y:person[sex:?]) marriage(Donca:person[sex:f], Zuicu:person[sex:m]) 32 Relații de rudenie: exemplu - Vreme de patruzeci de ani viața Ellei Rubinstein1 fusese ca o apă stătătoare… Soțul ei1, David, era un denst de succes… Apoziție: Rel Per-Xpr, Per-Y, => on,gen marriage(antecedent(X):person[sex:?], Y:person[sex:?]) marriage(Ella Rubistein:person[sex:f], David:person[sex:m]) 33 Relații spațiale: exemplu La cinci verste de iurtele Aremziansk, în mijlocul râului Irtâş, se aﬂă ostrovul Kuntai Satul lui Filatov se aﬂă pe malul stâng la două verste de ostrov 34 An example of callibraon: a Clause Level Segmenter An NLP tool supposed to segment sentences into clauses, used as elementary discourse units Made of three modules: § The Training Module § The Segmenter Module § The Evaluaon Module The Training Module • This module extracts a model which will be used by the segmenter module preferencesTraining pref Training Module Training model Corpus The Segmenter Module • This module segments the input applying rules and heuriscs according to the model preferencesSegmenter pref model Segmenter Module output xml input xml The Evaluaon Module • This module evaluates the test ﬁle against the gold ﬁle preferencesEvaluaon pref output xml Evaluaon Module evalFile gold xml General Arhitecture preferencesTraining pref preferencesSegmenter pref T model S input xml Training corpus output xml ld xml evalFile E go preferencesEvaluaon pref Calibraon system onﬁguraon cfg T c preferencesTraining pref nput xml S ipreferencesSegmenter pref gold xml E Training Opmal values Corpus C Any elementary NLP tool txt parameters output input Module standard standard input output resourses standard resourses 41 Events happen in me Când a intrat în camerăe1, Ion a aprins luminae2 După cinci minute a ieşite3 La ieşire a sns luminae4 42 Events happen in me Când a intrat în camerăe1, Ion a aprins luminae2 După cinci minute a ieşite3 La ieşire a sns luminae4 Two types of temporal expressions: • instants e1:t1 / e2:t1 / e3:t2=t1+5min / e4:t2 t1 t2 time e1 e2 e3 e4 43 Events happen in me Când a intrat în camerăe1, Ion a aprins luminae2 După cinci minute a ieşite3 La ieşire a sns luminae4 Two types of temporal expressions: • and intervals: 5 minutes t1 t2 time e1 e2 e3 e4 44 Events can be • Instantaneous: Ion a ieşit din cameră t time Maria s-a întâlnit cu proful de mate e • Take me: Ion a cit toată seara Afară plouă t1 t2 time e 45 Signals for temporal relaons Când a intrat în camerăe1, Ion a aprins luminae2 După cinci minute a ieşite3 La ieşire a sns luminae4 când ei, ej è t(ei) = t(ej) ei După ej è t(ej) = t(ei)+ La ej è t(ei) = t(ej) 5 minute t1 t2 timp e1 e2 e3 e4 46 Type of reasoning where me maers 1 Samurai S R L a luat fiinţă la 23 ianuarie 1984 2 [Falimentul firmei] a avut loc la un an după [înfiinţarea ei] un an Când a falimentat Samurai S R L ? 47 Processing statements inţă a luat fiinţă a lua ﬁ subj compl evenimential ISA representation Samurai S R L REC Samurai S R L (id=obj1) la ev1 PP TIME 23 ianuarie 1984 23 ianuarie 1984 48 a avut loc a avut loc subj compl subj compl falimentarea la rezoluţia falimentarea la atrib genit? PP anaforelor atrib genit? PP fianan obj1 rmei de det t un după un după înfiinţarea înfiinţarea atrib genit? atrib genit? ei obj1 simplificări dacă are loc falimentarea lui a falimenta X atunci X falimentează subj compl la obj1 PP an referinţă det aforică la un un după an eveniment deja menţionat ev1 49 Processing statements a falimenta subj compl la obj1 PP an temporal det xpression un după e anchored in another event ev1 evenimential representations 50 Compung me 51 Corpusul ‘QuoVadis’ Zilele BCU, Iași, 9 noiembrie 2015 Un corpus de entăți și relații semance • Tipuri de entăți: – persoane – zei – grupuri de persoane și zei – părți ﬁzice • Relații semance exprimate între aceste puri de entăți Zilele BCU, Iași, 9 noiembrie 2015 Entăți • Personaje (Marcus Vinicius, Ligia), grupuri (creșnii, soldații); • La nivelul textului: grupuri nominale (tânărul patrician, ﬁul consulului); • Entăți incluse: [Te]1 [iubesc; REALISATION=INCLUDED]2, Marcus! • Expresii referențiale imbricate: [ﬁica [lui Aulus]2]1 Zilele BCU, Iași, 9 noiembrie 2015 Tipuri de relații • Anaforice • Semance – rudenie – afecve – sociale Zilele BCU, Iași, 9 noiembrie 2015 Relații anaforice • coref • coref-interpret • member-of, has-as-member (inverse) • isa, class-of (inverse) • part-of, has-as-part (inverse) • subgroup-of, has-as-subgroup (inverse) • has-name, name-of (inverse) 1:[Ligia] 2:[tânăra libertă] => coref 1:[mâna 2:[lui] dreaptă] => part-of Zilele BCU, Iași, 9 noiembrie 2015 Relații de rudenie • parent-of • child-of (inverse of parent-of) • grandparent-of and grandchild-of (inverse) • sibling (symmetrical) • ant-uncle-of, nephew-of (inverse relaon) • cousin-of (symmetrical) • spouse-of (symmetrical) • unknown 1:[celui de-al doilea soț 2:[al Popeii]] => spouse-of 1:[sora lui 2:[Petronius]] => sibling-of Zilele BCU, Iași, 9 noiembrie 2015 Relații sociale • superior-of • inferior-of • in cooperaon-with • colleague-of • in compeon-with • opposite-to Eliberând- 1:[o], 2:[Nero]… => superior-of 1:[Tânărul] luptase sub comanda 2:[lui Corbulon] => inferior-of Zilele BCU, Iași, 9 noiembrie 2015 Relații afecve • love • loved-by • hate • hated by • upset • friendship • worship • anger Pe 1:[Vinicus] îl cuprinse o mânie năprasnică împotriva 2:[împăratului] și împotriva 3:[Acteii] => anger , anger Zilele BCU, Iași, 9 noiembrie 2015 căsătorise Marcus cu Vinicius TYPE="parent-of"> era tatăl TYPE="child-of"> acestuia ﬁul TYPE="sibling-of"> surorii TYPE="inferior-of"> a sale e consul mai pe mari vremea tar lui o Tiberiu n , d A TYPE="spouse-of"> care REFERENTIAL> , cu REFERENTIAL> ani în urmă , of" /REFERENTIAL> se Stasci asupra corpusului • 7 281 fraze • 146 822 cuvinte și semne de punctuație • 24 636 mențiuni de entăți • 22 301 relații referențiale • 755 relații AKS (Aﬀecve + Kinship + Social) • 752 triggere Zilele BCU, Iași, 9 noiembrie 2015 Example: relațiile love și worship Zilele BCU, Iași, 9 noiembrie 2015 Relațiile afecve fear-of și hate Zilele BCU, Iași, 9 noiembrie 2015 Relațiile lui Vinicius cu alte personaje Zilele BCU, Iași, 9 noiembrie 2015 Distribuția relațiilor semance în care este implicat personajul Vinicius Zilele BCU, Iași, 9 noiembrie 2015 Linguiscs Linked Open Data (LLOD) - Dezvoltarea de tehnici care vor permite descifrarea conținutului semanc al textelor - rezumate (generale, parțiale, focalizate pe personaje), - linii narave (e g evoluția senmentelor dintre Vinicius și Ligia) - conexiuni stace între entăți (e g arbori genealogici), - stasci asupra entăților (e g senmentele majoritare ale creșnilor comparate cu cele ale romanilor) Zilele BCU, Iași, 9 noiembrie 2015 Linguiscs Linked Open Data (LLOD) - Generarea de ontologii din colecții de tratate - aplicații care “citesc” tratatele unui domeniu și formalizează conceptele și instanțele acestora - Căutare documentară inteligentă - asistenți personalizați ai acvității de cercetare Zilele BCU, Iași, 9 noiembrie 2015 